总 第 2 期 2017 年 第 2 期 


基于 SVM 多 特征 融合 的 微 博 情感 多 级 分 类 


研究 


杨 爽 陈 芬 


(南京 理工 大 学 经 济 管理 学 院 ”南京 210094) 


摘要 : 【 目的 ] 为 更 精确 地 识别 网 民 态 度 ， 监 测 网 络 与 情 , 提出 一 种 基于 SVM 多 特征 融合 的 情感 5 级 分 类 方法 。 


【方法 】 从 词性 特征 、 


情感 特征 、 


征 , 运用 SVM 方法 对 微 博 情感 进行 5 级 分 类 [结果 余 验 


句 式 特征 、 语 义 特 征 4 个 方面 , 提取 动词 、 名 词 、 情 感 词 、 否 定 词 等 14 个 特 
结果 表明 , 该 方法 对 情感 5 级 分 类 的 准确 率 为 82.40%， 


召回 率 为 81.91%, F 值 为 82.10%。[ 局 限 】 训 练 语 料 的 规模 有 待 进一步 提高 。[ 结论 】 该 方法 在 情感 5 级 分 类 方 


面 取得 较 好 的 效果 。 
关键 词 : 微 博 ”情感 倾向 性 ”支持 向 量 机 
分 类 号 : G35 TP391 


句法 分 析 


1 3 引 


微 博 已 成 为 中 国 当前 用 户 数量 最 多 的 互联 网 信息 
传播 平台 ,在 微 博 中 潜藏 着 极为 丰富 的 主观 情感 信息 。 
通过 对 微 博 进行 情感 分 类 ,获取 广大 网 民 们 的 情感 倾 
向 , 可 以 迅速 、 准 确 地 了 解 广 大 网 民 的 诉求 ,为 网 络 与 
情 分 析 提 供 可 靠 依据 。 

目前 , 已 有 许多 学 者 对 微 博 情感 分 类 进行 研究 ， 
主要 采用 基于 语义 的 方法 和 基于 机 需 学 习 的 方法 , 将 
情感 分 为 正面 、 负 面 , 或 者 正面 、 中 性 和 人 负面。 然而 
这 种 划分 方法 并 不 能 精确 地 反映 网 民 们 的 情感 立场 站。 
在 网 络 与 情 中 ,部 分 网 民 会 表达 自己 对 茶 事 件 的 绝对 
立场 , 他 们 很 难受 其 他 言论 的 影响 。 而 有 的 网 民 表 现 


了 中 


类 ,对 微 博 短文 本 的 情感 5 级 分 类 研究 较 少 。 

本 文采 用 SVM(Support Vector Machine) 模 型 作为 
分 类 模型 ， 从 词性 特征 、 情 感 特征 、 句 式 特 征 和 语义 
特征 4 个 方面 考虑 , 提取 词性 、 情 感 词 、 情 感 强度 、 
情感 得 分 和 语义 关系 等 多 种 情感 资源 特征 ,对 微 博 进 
行 5 级 情感 分 类 。 


2 相关 研究 


目前 文本 情感 分 类 技术 主要 有 两 类 ,基于 情感 词 
典 的 方法 和 机 需 学 习 的 方法 。 基 于 情感 词典 的 方法 是 
通过 构建 情感 词典 , 通过 特定 的 算法 模型 进行 情感 倾 
向 值 的 计算 ， 进 而 根据 情感 倾向 值 对 文本 进行 极 性 分 
析 。Kamps 等 门 利用 WordNet 的 同 义 结构 图 计算 新 词 


的 立场 并 不 稳定 ,他 们 只 是 暂时 性 受到 某 些 言论 的 影 
响 ， 表 现 出 倾向 性 的 立场 。 所 以 , 将 情感 划分 为 三 级 过 
于 绝对 化 , 应 该 采用 非常 正面 、 正 面 、 中 立 、 负 面 、 

非常 负面 的 5 级 分 类 方法 。 而 在 现 有 的 情感 分 类 研究 
中 , 大 多 是 对 以 产品 评论 为 主 的 中 长 文本 进行 5 级 分 


与 种 子 词 的 语义 距离 , 并 以 此 计算 情感 倾向 。Shen 等 所 
构建 了 和 否定 词 词典 、 程 度 副词 词典 、 感 叹 词 词典 和 情 
感 词 词典 , 设置 相应 的 规则 计算 微 博 的 情感 倾向 性 ， 
准确 率 达 到 80.6%。 郑 诚 等 外 以 情感 词典 的 构建 为 基 
础 ,将 情感 词 、 否 定 词 、 程 度 副词 之 间 的 语义 规则 加 
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入 微 博 的 情感 倾向 计算 中 , 之 后 结合 情感 词典 与 规则 ， 
计算 微 博 的 情感 极 性 值 ， 实 现 微 博 情感 分 类 。 机 器 学 
习 的 方法 是 将 情感 分 类 看 作 一 种 特殊 的 文本 分 类 , 通 
过 机 需 学 习 算法 训练 标注 好 的 训练 集 得 到 分 类 模型 ， 
再 由 分 类 模型 确定 文本 的 倾向 性 所 。Pang 等 四 将 机 器 
学 习 方 法 应 用 到 文本 情感 分 类 的 研究 中 ,发 现 选取 
Unigram 为 特征 并 结合 SVM 算法 时 的 效果 最 好 , 分 类 
正确 率 最 高 达到 约 80%。Barbosa 等 中 使 用 从 三 个 不 同 
的 Twitter 情感 分 析 网 站 上 获取 到 的 训练 数据 训练 标 
准 的 SVM 分 类 器 , 精度 达到 81.3%。Davidov 等 四 使 
用 微 博 中 的 标签 、 表 情 符号 等 作为 特征 , 训练 了 一 个 
类 似 KNN 的 分 类 融 , 将 情感 分 为 正 、 负 两 类 ,正确 率 
最 高 达到 86%。 夏 梦 南 等 8 在 进行 微 博 的 情感 分 析 时 ， 
利用 句法 分 析 和 CRFs 抽取 候选 评价 对 象 , 以 此 为 基 
础 使 用 SVM 方法 对 微 博 进行 情感 分 类 ,正确 率 达 到 
91.4%。 

通过 以 上 的 研究 分 析 发 现 , 目前 的 情感 分 类 研究 
仍 多 以 三 级 分 类 为 主 , 并 且 已 经 有 较 高 的 准确 率 。 而 
在 现实 应 用 中 , 三 级 分 类 并 不 能 很 好 地 满足 实际 需求 ， 
尤其 是 在 产品 评论 方面 , 所 以 不 少 学 者 对 文本 的 5 级 
分 类 进行 研究 , Ding 等 "通过 改进 条 件 随机 场 (CRFs)， 
分 两 个 层次 两 次 使 用 CRFs 方法 。 第 一 层 对 文章 进行 
极 性 判断 , 第 二 层 给 出 5 个 级 别 的 强度 分 类 ， 取 得 了 
相对 不 错 的 效果 。 魏 晶 晶 等 对 电子 商务 产品 评论 进 
行 多 级 情感 分 析 , 评论 最 终 被 划分 为 : 强烈 贬 意 .一般 
贬 意 、 中 性 、 一 般 讲 扬 、 强 烈 赛 扬 5 级 的 情感 强度 , 通 
过 复杂 句 句 法 模式 和 基于 词典 的 算法 计算 句子 级 情感 
倾向 , 进而 得 出 整个 评论 的 分 类 。 该 方法 主要 针对 篇 
章 级 文本 进行 5 级 分 类 , 对 于 句子 级 5 级 分 类 并 没有 
深入 研究 。 雇 健 等 所 提出 一 种 基于 观点 袋 模型 和 语言 
学 规则 的 多 级 情感 分 类 方法 。 该 方法 通过 计算 搭配 四 
元 组 的 情感 倾向 极 性 值 ， 建立 文本 的 向 量化 表示 ,并 
构造 权重 计算 公式 , 利用 文本 余弦 相似 度 计算 方法 实 
现 对 汽车 评论 文本 的 5 级 情感 极 性 分 类 。 但 该 方法 需 
要 使 用 已 有 的 领域 本 体 特征 , 抽取 的 情感 搭配 无 法 履 
六 全 部 文档 。 上 述 方法 主要 是 针对 产品 评论 进行 多 级 
分 类 ,而 微 博 相 比 于 产品 评论 , 文本 长 度 更 短 ， 表 达 
更 随意 ,目前 对 于 微 博 短文 本 的 多 级 情感 分 类 研究 还 

本 文 在 已 有 研究 的 基础 上 , 通过 Word2Vec 发 现 


数据 分 析 与 知识 发 现 


网 络 情感 新 闻 ,， 并 加 入 语义 特征 , 通过 句法 依存 技术 ， 
获取 句子 中 与 情感 词 有 关 的 语义 关系 ， 提 出 一 种 融合 
多 种 情感 资源 特征 , 利用 SVM 分 类 带 实 现 微 博 情 感 5 
级 分 类 的 方法 。 


3 基于 SVM 多 特征 融合 的 微 博 情感 5 级 分 类 


3.1 词典 构建 

根据 情感 分 析 的 需要 , 构建 了 三 个 词典 : 情感 词 
典 、 否 定 词 词典 、 程 度 副 词 词典 。 本 文 以 知 网 HowNet 
情感 词 词典 为 基础 ， 并 利用 Word2Vec0 发现 网 络 情 
感 新 词 。Word2Vec 是 利用 词语 间 的 语义 关系 , 将 词语 
转化 为 词 癌 量 , 然后 利用 词 向 量 之 间 的 语义 距离 关系 ， 
自动 识别 网 络 情感 新 词 。 其 原理 是 用 喻 夫 曼 树 构 建生 
成 的 统计 语言 模型 中 的 概率 模型 ， 针对 训练 语 料 ， 利 
用 浅 层 神经 网 络 后 向 传播 算法 (Back Propagation，BP) 
传递 误差 损失 ,同时 更 新 神经 网 络 中 的 模型 参数 与 词 
向 量 ， 通 过 若干 轮 的 迭代 生成 该 统计 语言 模型 ， 并 同 
时 生成 语 料 中 所 有 词汇 的 词 向 量 ， 如 公式 () 所 示 。 


了 


0,C =arg maxoc -> > 


t=] ~c<j<ce, jz#0 


log p(w;; | w,; 0,C) 


(1) 
其 中 ，6 表 示 模 型 中 神经 网 络 的 相关 参数 ，C 表示 
语 料 所 有 词汇 所 构成 的 矩阵 向 量 VxK(Y 表示 词汇 个 
数 , K 表示 词 向 量 纬度 )。 若 使 用 哈 夫 曼 树 的 数据 结构 ， 
公式 (1) 中 的 pw, ;|w; 9,C) 定 义 如 公式 (2) 所 示 。 


这 
plwss |; 0,0) = TI pad; C,.,0%) 
i 


-To -0 .1-0(Cr 0°) ©) 
2 
其 中 ，1™ 表示 从 根 节点 出 发 到 w, 所 对 应 的 叶子 
节点 中 所 包含 的 非 叶子 节点 个 数 , 这 些 节点 相对 应 的 
哈 夫 曼 编 码 分 别 为 d,”， 对 于 神经 网 络 中 权重 参数 为 
0 ，C, 表示 w 的 词 向 量 , 而 o(%) 是 sigmod 函数 , 定 
义 如 公式 (3) 所 示 。 


o(x)= ee (3) 
l+e 


通过 窗口 的 滑动 ， 当 模型 完成 对 语 料 的 数 次 交代 
学 习 后 ,得 到 其 统计 语言 模型 相关 参数 6 与 所 有 词汇 
组 成 的 词 向 量 矩 阵 C。 


通过 使 用 Word2Vec 对 情感 词语 进行 扩充 , 并进 
行人 工 筛选 和 调整 。 最 终 , 情感 词典 包括 4566 个 正 向 
情感 词 和 4 371 个 负 向 情感 词 。 否 定 词 以 《中 国 现代 
语法 》 中 给 出 的 否定 词 为 基础 , 并 对 否定 词 词典 进 一 
步 扩展 , 最 终 得 到 28 个 否定 词 。 程 度 副词 以 HowNet 
情感 词典 中 的 程度 副词 词典 为 基础 ， 再 通过 人 工 收集 ， 
最 终 得 到 256 个 程度 副词 。 本 文 对 不 同 语气 强度 的 程 
度 副 词 ， 分别 赋予 0.5 到 2 的 权重 。 部 分 程度 副词 及 其 
权重 如 表 1 所 示 。 


表 1 程度 副词 表 
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个 词语 表达 自己 的 想法 , 并 没有 完整 的 结构 。 所 以 将 
词性 考虑 到 情感 倾向 的 特征 内 ,可 以 更 好 地 解析 句子 
的 结构 , 辅助 模型 判断 微 博 的 情感 。 根 据 文献 [15] 以 及 
对 语 料 的 观察 , 本 文选 择 动词 、 形 容 词 、 副 词 作为 情 
感 分 类 的 特征 。 

(2) 情感 特征 

情感 词 是 最 能 直观 反映 微 博 发 布 者 情感 状态 的 词 
语 。 情 感 词 一 般 分 为 “正面 情感 词 "、“ 负 面 情感 词 ”。 
正面 情感 词 是 指 词语 本 身 表现 出 比较 积极 、 乐 观 等 态 
度 ; 负面 情感 词 是 指 词语 本 身 表 现 出 失落 、 消 极 等 态 


权重 示例 个 数 
2.0 百分之百 .绝对 ,非常 . 超 、 过 于 …… 99 
1.5 很 、 多 么 、 更 加 、 不 胜 …… 78 
1.0 比较 、 较 为 、 多 多 少 少 ……… 13 
0.5 稍微 、 略 为 、 不 怎么 、 不 为 过 …… 54 


3.2 ”特征 选择 

不 同 级 别 的 微 博 在 语义 及 语法 结构 上 均 存 在 不 同 
寺 征 。 特 征 选 择 是 使 用 SVM 分 类 器 分 类 的 重要 环节 [1 
分 类 结果 的 准确 率 、 召 回 率 及 分 类 系统 的 效率 均 取 决 
于 特征 选择 的 合理 性 。 本 文通 过 阅读 文献 以 及 观察 真 
实 微 博 语 料 从 词性 特征 、 情 感 特征 、 句 式 特征 和 语 
义 特征 4 个 方面 , 提取 13 个 特征 ,如 表 2 所 示 。 

表 2 特征 类 型 及 含义 


特征 类 型 含义 
微 博 中 含有 的 动词 数量 (F]) 
闻 性 特征 微 博 中 含有 的 形容 词 数量 (F2) 


微 博 中 含有 的 副词 数量 (F3) 

微 博 中 含有 的 正面 情感 词 数量 (F4) 
微 博 中 含有 的 负 向 情感 词 数 量 (F5) 
微 博 中 程度 副词 的 最 高 权重 (F6) 
微 博 的 情感 得 分 (F7) 
否定 词 的 数量 (F8) 
感叹 号 的 数量 (F9) 
问号 的 数量 (F10) 

与 情感 词 有 关 的 副词 性 修饰 语 (F11) 
与 情感 词 有 关 的 形容 词性 修饰 语 (F12) 
与 情感 词 有 关 的 名 词性 主语 (F13) 


情感 特征 


句 式 特征 


语义 特征 


(1) 词性 特征 
微 博 语言 的 特点 就 是 短小 、 精 悍 。 用 户 在 使 用 微 
博 发 布 自己 的 观点 、 想 法 时 ， 有 时 仅仅 采用 一 个 或 多 


度 。 将 正面 情感 词 和 负面 情感 词 作为 情感 分 类 的 特征 。 

要 实现 对 情感 的 5 级 分 类 , 情感 强度 显得 尤为 重 
要 。 在 本 研究 中 , 情感 强度 是 通过 情感 词 前 出 现 的 程 
度 副 词 的 权重 体现 。 比 如 :“ 她 长 得 非常 好 看 ”， 正 面 情 
感 词 “ 好 看 ”之 前 出 现 程度 副词 “非常 ”“ 非 常 ”的 权重 
为 2, 所 以 “好 看 ”的 情感 强度 由 1 变 成 2。 对 于 一 条 
微 博 中 出 现 多 个 程度 副词 ， 取 强度 最 高 的 值 作为 情感 
强度 特征 值 。 本 文 还 将 情感 得 分 作为 特征 之 一 。 人 情感 
得 分 高 的 句子 比 情感 得 分 低 的 句子 情感 倾向 更 明显 。 
情感 得 分 计算 如 公式 (4) 所 示 。 


Score= >》 (rawscore, x Intense,) (4) 
i=0 


其 中 , n 是 一 条 微 博 中 的 句子 数 ，rawscore; 是 第 i 
个 句子 中 情感 词 的 基本 分 数 (+1、-1 或 0); Intense; 是 
第 i 个 句子 的 修饰 词 程度 权重 或 否定 词 权 重 。 

(3) 句 式 特征 

否定 词 的 出 现 可 能 会 改变 整个 语句 的 情感 倾向 。 
如 “今天 玩 的 不 开心 !"， 如 果 不 考虑 否定 词 , 该 文本 的 
情感 倾向 性 归 类 为 正面 , 但 是 该 句 真 实 的 情感 倾向 为 
负面 。 由 此 可 知 , 否定 词 是 情感 倾向 分 析 过 程 中 比较 
重要 而 且 是 必 不 可 少 的 特征 。 

如 果 一 句 话 中 出 现 问号 和 感叹 号 , 说 明 微 博 发 布 
者 在 强调 自己 的 情感 , 问号 和 感叹 号 出 现 的 次 数 不 同 ， 
所 表达 情感 程度 也 不 同 。 感 叹 号 和 问号 作为 微 博 情感 
倾向 的 特征 会 更 好 地 辅助 模型 判别 微 博 的 情感 倾向 
性 。 因 此 将 问号 和 感叹 号 出 现 的 次 数 作为 情感 分 类 的 
寺 征 之 一 。 

(4) 语义 特征 

句法 分 析 是 指 对 输入 的 单词 序列 (一 般 为 句子 ) 判 
断 其 构成 是 否 为 合乎 给 定 的 语法 , 分 析出 合乎 语法 的 
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句法 结构 59。 通 过 依存 句法 分 析 , 能 够 体现 微 博 的 内 
部 结构 和 联系 ,更 能 全 面 地 表现 微 博 的 情感 倾向 。 本 
文采 用 Stanford Parser 句法 分 析 器 进行 句法 分 析 。 通 
过 对 真实 语 料 的 观察 ,并 参考 文献 [18]， 提 取 以 下 三 
种 关系 类 型 作为 特征 。 

(Dadvmod 副词 性 修饰 语 : 副词 性 修饰 语 用 于 改变 该 副 
词 的 强度 ,例如 ,“ 她 长 得 非常 漂亮 "的 提取 结果 是 advmod( 漂 
亮 ， 非常 ) 表示“ 非常 "作为 副词 修饰 了 “漂亮 "这 个 形容 词 。 

(Damod 形容 词 修饰 语 : 一 个 名 词 词组 的 形容 词 修饰 语 。 
例如 “这 可 真是 神 回复 啊 ” 的 提取 结果 是 : amod( 回 复 ， 神 )， 
表示 名 词性 形容 词 “ 神 ” 修 饰 了 “回复 ”。 

(Bnsubj 名 词性 主语 : 用 于 修饰 名 词性 主语 。 例 如 “不 一 
样 的 抗日 神 剧 ， 好 看 ! ”的 提取 结果 是 nsubj( 好 看 , 剧 ), 表示 
“好 看 ”修饰 了 名 词性 主语 “ 剧 ”。 

3.3 ”情感 分 类 模型 

微 博 语 料 含 有 # 活 题 #、URL 和 @ 用 户 等 无 用 信息 ， 
这 些 信息 并 不 包含 用 户 的 观点 , 还 可 能 影响 下 一 步 分 
词 和 词性 标注 的 效果 。 因 此 在 分 词 之 前 ,首先 过 滤 掉 
微 博 中 的 # 活 题 #、URL 和 @ 用 户 等 元 用 信息 ,然后 再 
对 过 滤 后 的 语 料 进行 下 一 步 处 理 。 本 文 使 用 中 国 科 学 
院 计算 技术 研究 所 的 分 词 工 具 NLPIR201609 对 过 滤 
后 的 语 料 进行 分 词 和 词性 标注 。 选 择 SVM 模型 作为 
情感 分 类 模型 。 实 验 使 用 所 选择 和 计算 得 到 的 特征 来 
表示 训练 集 和 测试 集 , 之 后 将 训练 集 输入 SVM 模型 
中 , 构建 微 博 情感 分 类 模型 并 对 模型 参数 进行 优化 ， 
最 后 将 测试 集 输入 构建 好 的 模型 中 ,得 到 测试 集 的 情 
感 类 别 。 情 感 分 类 模型 如 图 1 所 示 。 
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图 1 情感 分 类 模型 
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4 实验 设计 


4.1 实验 语 料 及 标注 标准 

实验 数据 使 用 部 分 COAE2014 微 博 评测 语 料 ， 人 
工 对 这 些 语 料 按照 “非常 正面 "、“ 正 面 "、“ 中 立 ”,“ 负 
面 "、“ 非 常 负面 ”5 个 情感 级 别 进行 标注 。 标 注 工作 由 
课题 组 成 员 完 成 ， 共 标注 5 000 条 语 料 。 标 注 结果 如 表 
3 所 示 。 


表 3 实验 数据 分 布 


类 别 数量 
非常 正 函 217 
正 1 149 
中 立 2 081 
负 1 239 
非常 负 函 304 
人 工 标注 语句 的 情感 值 主要 依据 语句 中 含有 的 程 


度 副 词 级 别 和 标点 符号 判断 。 语 名 中 如 果 含 有 如 “ 非 
常 ” 等 这 样 程度 副词 级 别 较 高 的 词语 , 这样 的 语句 比 
程度 副词 级 别 较 低 或 不 含 程度 副词 的 语句 情感 表达 更 
强烈 。 同 样 地 ,如果 语 句 中 含有 多 个 “!" 或 “2* 等 具有 表 
达 情 感 的 标点 符号 ,这样 的 语句 也 比 不 含 任何 标点 符 
号 的 语句 情感 表达 更 强烈 。 

例句 (1): 这 个 莫 浴 手 好 看 ! 

例句 (2): 这 个 翡 尾 真 的 非常 非常 好 看 ! 

例句 (2) 比 例句 (1) 的 程度 要 更 强烈 ， 所 以 例句 (1) 
的 情感 值 标注 为 +1， 而 例句 (2) 的 情感 值 标 为 +2。 
4.2 ”特征 提取 结果 

完成 标注 后 ， 对 实验 语 料 进 行 分 词 、 词 性 标注 
等 操作 ,并 按 3.2 节 所 述 特 征 提取 方法 提取 特征 。 
实验 使 用 Java 语言 编写 程序 ,在 Eclipse 平台 下 完 
成 所 有 程序 编写 及 测试 。 实 验 环 境 是 Win7 64bit 操 
作 系 统 ， 内 存 4GB。 表 4 为 部 分 文本 内 容 特征 抽取 
结果 。 
4.3 ”模型 及 评价 指标 

本 文 使 用 LibSVM 进行 SVM 模型 的 训练 与 分 类 中 。 
将 每 类 情感 语 料 按 4 : 1 分 成 训练 集 和 测试 集 。 在 训 
练 语 料 前 , 对 提取 的 特征 进行 归 一 化 处 理 ， 以 提高 运 
行 速度 。 训 练 采用 LibSVM 提供 的 默认 参数 ，SVM 
类 型 为 C_SVC, 核 函数 为 RBF 核 函 数 。 采 用 准确 率 、 
召回 率 和 Fl 值 作为 评价 标准 。 
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表 4 部 分 特征 提取 结果 


情感 什 Fl F2 F3 F4 FS5 F6 E7 F8 F9 F10 F11 F12 F13 
+2 2 2:0 3:2 4:2 5:0 6: 2.0 7: 4.0 8: 0 9:3 10: 0 11: 1 12: 0 13: 1 
十 1 1: 4 2:2 3:3 4:3 5:0 6: 0.0 7: 1.0 8: 0 9: 1 10: 0 11:0 12: 2 13:2 
-2 1:2 2 3:0 4:0 5:2 6:2.0 7:-4.0 8: 1 9: 0 10: 1 11:2 12: 0 13: 0 
一 | ls:3 2:°5 3:3 4: 1 5: 进 6:1.0 7:-2.0 8:3 9:0 10: 6 11: 1 12:3 13:0 
0 1:3 2:2 3:3 4: 1 5:0 6:0 7: 1.0 8: 2 9: 1 10: 1 11:2 12: 3 13: 0 


5 实验 结果 及 分 析 
(1) 不 同 特征 组 合 对 情感 分 类 影响 
通过 实验 验证 不 同情 感 特征 构建 方式 对 分 类 的 影 
响 , 使 用 准确 率 作为 评估 指标 , 实验 结果 如 表 5 所 示 。 
表 5 不 同 特征 组 合 实验 结果 


实验 特征 组 合 人 
1 ”词性 57.60% 
”词性 + 情感 记 80.93% 
3 ”词性 + 情感 词 + 程 度 副 词 权重 BO 
4 ”词性 + 情感 词 + 程度 副词 权重 + 情感 得 分 81.95% 
5 词性 + 情感 词 + 程度 副词 权重 + 情感 得 分 + 82.14% 
否定 诉 
4 词性 + 情感 词 + 程度 副词 权重 + 情感 得 分 | go oo 
否定 词 + 问号 和 感叹 号 
7 ”词性 + 情感 词 + 程 度 副 词 权重 + 情感 得 分 + go 40g 
否定 词 + 问号 和 感叹 号 + 语义 特征 2 


由 表 5 可 以 看 出 ， 当 采用 所 有 特征 时 ， 准 确 率 最 
高 ,达到 82.40%。 其 中 情感 词 特征 的 作用 最 大 , 准确 
率 提 高 了 23.33%, 其 次 为 程度 副词 权重 , 使 准确 率 提 
高 了 0.83%， 其 余 特 征 也 均 对 情感 分 类 起 到 一 定 作 用 ， 
使 准确 率 有 略微 提升 。 

(2) 对 比 实验 评价 

将 本 文 方法 与 文献 [10] 提 出 的 层 大 CRFs 方法 进 
行 对 比 。 层 和 至 条 件 随 机 场 模型 (Cascaded CRFs, CCRFs) 
是 按 层 县 加 建立 起 多 个 层次 的 条 件 随 机 场 模型 , 在 5 
级 分 类 中 较为 常用 。 通 过 该 方法 可 以 将 5 分 类 问题 转 
为 由 粗 到 细 的 过 程 , 通过 低层 模型 识别 出 初步 结 
进行 过 滤 和 整合 , 将 处 理 后 的 识别 结果 输入 到 高 层 ， 
为 高 层 条 件 随 机 场 提 供 决 策 支 持 。 文 献 [10] 采 用 层 释 
CRFs 模型 ， 首先 对 文本 进行 三 级 分 类 , 然后 结合 词性 
特征 、 评 价 词 特征 、 连 词 特征 以 及 极 性 特征 ( 即 三 级 分 
类 的 结果 ) 对 情感 进行 5 级 分 类 , 在 COAE2008 的 任务 
3 上 , 取得 了 很 好 的 分 类 效果 ,准确 率 最 高 达到 


83.75%。 使 用 该 方法 在 本 文 语 料 集 上 进行 实验 , 并 与 
本 文 方法 进行 对 比 , 结果 如 表 6 所 示 。 
表 6 对 比 实验 结果 


方法 准确 率 召回 率 Fl 值 
本 文 方法 82.40% 81.91% 82.10% 
层 CRFs 方法 75.31% 73.30% 74.30% 


由 表 6 可 以 看 出 ,本 文 提出 的 方法 在 5 级 分 类 的 
准确 率 为 82.40%， 相 较 于 层 CRFs(75.31%), 准确 率 
有 较 大 的 提高 。 召 回 率 为 81.91%， 相 较 于 层 释 
CRFs(73.30%), 也 有 较 大 的 提升 。F 值 综合 考虑 了 准确 
率 和 召回 率 , 本文 方 法 的 Fl 值 为 82.10%, 与 层 苹 
CRFs(74.30%) 相 比 ， 提 升 了 7.80%。 文 献 [10] 的 层 苇 
CRFs 方法 所 提取 的 特征 主要 针对 中 长 文本 ， 对 于 微 
博 短 文本 并 不 适用 ， 所 以 准确 率 有 所 下 降 。 本 文 利用 
Word2Vec 对 情感 词典 进行 扩充 ,并 从 词性 特征 、 情 感 
特征 、 句 式 特征 和 语义 特征 多 个 维度 对 特征 进行 选择 ， 
在 对 微 博 进行 情感 5 级 分 类 中 取得 较 高 的 准确 率 。 


结 语 


本 文 提 出 一 种 采用 SVM 分 类 需 对 微 博 语 句 进行 5 
级 情感 分 类 的 方法 。 该 方法 以 词性 特征 、 情 感 特征 、 
句 式 特征 、 语 义 特 征 等 作为 依据 ,对 微 博 语 句 进行 5 
级 情感 分 类 , 并 将 该 方法 与 已 有 的 5 级 分 类 方法 进行 
对 比 ， 取 得 较 好 的 效果 。 

本 文 的 不 足 之 处 在 于 : 训练 语 料 较 少 , 尤其 是 非 
常 正面 和 非常 负面 这 两 类 语 料 数量 太 少 。 一 般 来 说 ， 
训练 语 料 越 多 ,构建 的 模型 越 准 确 , 未 来 研究 要 扩大 
训练 语 料 ,进一步 提高 模型 的 准确 性 。 
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Analyzing Sentiments of Micro-blog Posts Based on Support Vector 
Machine 


Yang Shuang Chen Fen 
(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China) 


Abstract: [Objective] This paper proposes a new method based on the Support Vector Machine to monitor online 
public opinion. [Methods] We extracted fourteen linguistic characteristics of the micro-blog posts and analysed their 
sentiments with Support Vector Machine. [Results] The precision, recall and F value of the proposed method were 
82.40%, 81.91%, and 82.10%, respectively. [Limitations] The size of training corpus needs to be expanded. 
[Conclusions] The proposed method could effectively analyze sentiments of micro-blog posts. 
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